[レポート] 生成AIで動画コンテンツからコンテキストを抽出してマネタイズする #ADM301 #AWSreInvent
はじめに
担当させていただいているお客様にメディア関連の会社様もいらっしゃいますので、なにかヒントが見つかれば良いなという思いで参加してきました。機械学習系の話も多く、英語で行われるChalk Talkのためわからない部分もありましたが、こんなことができるんだ!という驚きで眠気が吹っ飛びました。いまのところre:Invent2024で一番興奮したセッションでした。
セッション概要
Generative AI for contextual video advertising monetization
原文
Video advertising is a critical yet intricate medium for advertising, and generative AI offers a cost-effective solution for delivering richer, more contextually-relevant insights. This chalk talk explores the creation of a generative AI media framework for in-depth video decomposition and understanding, leveraging LLM contextualization. Discover different prompting strategies, automated orchestration of generative AI workflows, and cost optimization benchmarks. Gain insights into implementing generative AI to enhance contextual relevance at scale, unlocking richer, more impactful video advertising experiences.
日本語訳(機械翻訳)
動画広告は、広告にとって重要でありながら複雑なメディアであり、ジェネレーティブAIは、より豊かで文脈に関連した洞察を提供するための費用対効果の高いソリューションを提供します。このチョーク・トークでは、LLMコンテクスト化を活用した、詳細な動画分解と理解のためのジェネレーティブAIメディア・フレームワークの作成について説明します。様々なプロンプト戦略、ジェネレーティブAIワークフローの自動オーケストレーション、コスト最適化ベンチマークをご覧ください。ジェネレーティブAIを実装してコンテキストの関連性をスケールアップし、より豊かでインパクトのある動画広告体験を実現するための洞察を得ることができます。
Speakers
- James Wu, Sr. AI/ML Specialist SA, Amazon Web Service
- Gerry Louw, Global head of technology: Advertising & Marketing Technology - AWS
セッション内容
なぜ動画広告にコンテキストが重要なのか?という問いから始まりました。80%の利用者は未ログイン、そもそもアカウントを作成していないといった理由でどこの誰なのか、どういった嗜好の人かわからない状態です。
こうしたユーザーにマーケティングの観点から効果的にリーチするためにコンテキストが重要になります。この場合のコンテキストは、動画の中で広告枠として使用できる部分の前後のシーンにどういった内容が入っているかといったものです。
メディアを配信する広告枠の販売主としては、ある映像の中にCM枠として使用できる部分が何回あるのか、そのCM枠の前後にはどんなシーンが入っているのかといったコンテキストを付加して広告枠を販売できるという説明がありました。単に空いてる枠に入るだけの無関係な広告よりも効果がありそうですね。
購入する側も欲しいものが適切なタイミングでレコメンドされるので両者にとって嬉しい結果になります。
デモ
さて、ここからデモを見せてもらいました。
3つのStepと使われているAWSサービスについて説明がありました。
Step 1. Decompose video into logical segments
動画からフレームを抜き出してグリッド上の1枚の画像にします。あるシーンで何枚の画像が必要になるかはコンテンツによって異なりますので、このあたりは試行錯誤してコンテンツに合わせて適切な数を見つける必要があるとのことです。
ここでQAがあり動画から画像を抜き出すツールはなにか?という質問があり、PoC時点ではffmpeg等が使用できるという回答でした。
Step 2. Augment with additional data and insights
Amazon Transcribeで会話などの音声をテキストとして抜き出します。動画内のどの時点で行われた会話なのかわかるよう時間も出ています。
この部分はオプショナルと言っていましたが、より正確なコンテキストの抽出には重要ということでした。
Step 3. Contextualize at the logical segment
抜き出したフレームの画像と動画内容のサマリのテキストをBedrockに渡してコンテキストを抽出します。使用したモデルはClaude 3 Haikuといっていました。プロンプトはかなり大がかりなものになるそうです。
Result
Trascribeで抜き出した内容が動画のどの時点で発生したのか一覧です
動画の中のどの時点にブレイクがあるのか、出演者の会話などに影響しない形で広告を挿入できるかといった情報が出ています。
Price
ここまで可能であればLLMのコストもかなり高くなるのでは?という質問がありましたが、なんと1時間の動画であっても2ドル程度という驚きの答えでした。参加者の中にはメディア関連の方もいて、現状は人力でやっているとおっしゃっていたので、かなりのコスト削減が期待できそうです。ただ、動画のコンテンツによってはより多くのフレーム画像が必要になるため、費用は上下するとのことです。
秘伝のタレ
最後に「Secret Source」を見せたいと、登壇者が共有していたスライドです。シーン検出に使用するフレーム画像のサイズは1568x1540pxで、7x4枚の計28枚のグリッド状の画像を使用したそうです。これ以上のサイズにするとClaudeがリサイズを行ってしまうため、この画像サイズにしているとのことです。
おわりに
手法自体はメディア事業者以外でも応用ができそうです。例えばゲーム動画からのシーン抜き出しや、監視カメラからの状況抽出など、幅広く応用ができそうな非常に興味深いセッションでした。
以上、「Generative AI for contextual video advertising monetization」のセッションレポートでした。
参考リンク
最後に登壇者の方が紹介していた本セッションに関わるリンクをご紹介します。